- 三台机器
- 配置
- 机器名映射
- 防火墙和selinux
- 免秘钥登录
- 时钟同步
- JDK
- MySQL
- Java:存储业务数据、用户信息、商业信息、订单信息
- 大数据:用于存储关键性数据
- 软件元数据
- 分析的结果
设计每个进程启动在哪些机器上
-
整个Hadoop启动的进程
- HDFS:NameNode,DataNnode
- YARN:ResourceManager,NodeManager
-
整个Hadoop启动的进程
- HDFS:NameNode ,DataNode
- YARN:ResourceManager,NodeManager
-
节点规划
机器 node1 node2 node3 NameNode * DataNode * * * ResourceManager * NodeManager * * * -
启动和关闭hdfs(未配置环境变量的情况下要去sbin目录下)
start-dfs.sh stop-dfs.sh
-
启动和关闭yarn
start-yarn.sh stop-yarn.sh
-
解压安装
-
修改配置:配置文件都在Hadoop的etc/hadoop目录下
- *-env.sh:用于配置环境变量
- hadoop-env.sh
- Hadoop的环境变量,比如声明
JAVA_HOME
- Hadoop的环境变量,比如声明
- mapred-env.sh
- MapReduce的环境变量
- yarn-env.sh
- YARN的环境变量
- hadoop-env.sh
- *-site.xml
- core-site.xml
- 配置Hadoop的全局的一些属性
- 比如端口号、块大小等
- hdfs-site.xml
- HDFS的属性配置
- dfs.replication:配置每个文件块的副本数
- mapred-site.xml
- MapReduce的一些属性
- 比如Web端口
- yarn-site.xml
- core-site.xml
- slaves:用于配置从节点[DataNode、NodeManager]地址
- 计算节点都与存储节点在同一台机器(DataNode也是NodeManager)
- *-env.sh:用于配置环境变量
-
启动服务
-
第一次启动服务吗,需要格式化
-
只能在NameNode所在的机器格式化
hdfs namenode -format
-
-
core-site.xml和hdfs-site.xml配置编写错误,修正后需要重新格式化
-
启动
-
启动hdfs
start-dfs.sh 只能在NN所在的机器启动
-
启动yarn
start-yarn.sh 只能在RM所在的机器启动
-
-
端口:
- HDFS:NameNode启动开放
- 8020:RPC协议,用于客户端请求服务端,节点之间的远程调用
- 50070:http协议,用于访问网页
- YARN:ResourceManager启动开放
- 8032:RPC协议,用于客户端请求服务端,节点之间的远程调用
- 8088:http协议,用于访问网页
- HDFS:NameNode启动开放
-